V2EX  ›  英汉词典
Enqueued related words: Exploding Gradients

Gradient Clipping

Definition / 定义

梯度裁剪:在训练神经网络时,当梯度(参数更新的“方向与幅度”)过大,会导致训练不稳定甚至数值发散。梯度裁剪通过把梯度的大小限制在某个阈值内(常见做法是按范数缩放或逐元素截断),来提高训练稳定性,尤其常用于循环神经网络(RNN)等容易出现梯度爆炸的模型中。

Pronunciation / 发音

/ˈɡreɪdiənt ˈklɪpɪŋ/

Examples / 例句

We used gradient clipping to stop the loss from blowing up.
我们使用梯度裁剪来防止损失函数突然发散。

During training, gradient clipping (by global norm) stabilized the recurrent model and allowed a larger learning rate without divergence.
在训练过程中,通过(全局范数)梯度裁剪稳定了循环模型,并使得在不发散的情况下可以使用更大的学习率。

Etymology / 词源

gradient 源自拉丁语 gradiens(“行走、前进”),在数学与机器学习里指函数变化的“斜率/梯度”。clipping 来自动词 clip(“剪下、截短”),在信号处理与数值计算中常指把数值“截到一定范围内”。合起来 gradient clipping 直译为“把梯度剪到不超过某个界限”,强调对过大更新量的限制。

Related Words / 相关词

Literary Works / 文学作品

  • Deep Learning(Ian Goodfellow, Yoshua Bengio, Aaron Courville)——在优化与训练技巧相关章节讨论梯度问题与稳定训练方法,常提及梯度裁剪。
  • “On the difficulty of training recurrent neural networks”(Razvan Pascanu, Tomas Mikolov, Yoshua Bengio, 2013)——研究RNN训练困难,讨论梯度爆炸并提出/使用梯度裁剪等稳定策略。
  • “Neural Machine Translation by Jointly Learning to Align and Translate”(Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio, 2015)——神经机器翻译的经典论文,实际训练中常采用梯度裁剪来提升稳定性。
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   823 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 13ms · UTC 18:31 · PVG 02:31 · LAX 10:31 · JFK 13:31
♥ Do have faith in what you're doing.